Weakly supervised video anomaly detection (WSVAD) is a challenging task since only video-level labels are available for training. In previous studies, the discriminative power of the learned features is not strong enough, and the data imbalance resulting from the mini-batch training strategy is ignored. To address these two issues, we propose a novel WSVAD method based on cross-batch clustering guidance. To enhance the discriminative power of features, we propose a batch clustering based loss to encourage a clustering branch to generate distinct normal and abnormal clusters based on a batch of data. Meanwhile, we design a cross-batch learning strategy by introducing clustering results from previous mini-batches to reduce the impact of data imbalance. In addition, we propose to generate more accurate segment-level anomaly scores based on batch clustering guidance further improving the performance of WSVAD. Extensive experiments on two public datasets demonstrate the effectiveness of our approach.
translated by 谷歌翻译
Harvesting question-answer (QA) pairs from customer service chatlog in the wild is an efficient way to enrich the knowledge base for customer service chatbots in the cold start or continuous integration scenarios. Prior work attempts to obtain 1-to-1 QA pairs from growing customer service chatlog, which fails to integrate the incomplete utterances from the dialog context for composite QA retrieval. In this paper, we propose N-to-N QA extraction task in which the derived questions and corresponding answers might be separated across different utterances. We introduce a suite of generative/discriminative tagging based methods with end-to-end and two-stage variants that perform well on 5 customer service datasets and for the first time setup a benchmark for N-to-N DialogQAE with utterance and session level evaluation metrics. With a deep dive into extracted QA pairs, we find that the relations between and inside the QA pairs can be indicators to analyze the dialogue structure, e.g. information seeking, clarification, barge-in and elaboration. We also show that the proposed models can adapt to different domains and languages, and reduce the labor cost of knowledge accumulation in the real-world product dialogue platform.
translated by 谷歌翻译
Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
视频快照压缩成像(SCI)使用计算成像的概念通过单个测量捕获了多个顺序视频帧。基本原理是通过不同的遮罩调节高速框架,这些调制帧求和到由低速2D传感器捕获的单个测量值(称为光学编码器);此后,如果需要,使用算法来重建所需的高速帧(配音软件解码器)。在本文中,我们考虑了视频SCI中的重建算法,即从压缩测量中恢复一系列视频帧。具体而言,我们提出了一个时空变压器(STFORMER)来利用空间和时间域中的相关性。 stformer网络由令牌生成块,视频重建块组成,这两个块由一系列的stformer块连接。每个STFORMER块由空间自我注意分支,时间自我发项处和这两个分支的输出组成,由融合网络集成。对模拟和真实数据的广泛结果证明了Stformer的最新性能。代码和模型可在https://github.com/ucaswangls/stformer.git上公开获得
translated by 谷歌翻译
网络对齐(NA)是在不同网络上发现节点对应关系的任务。尽管NA方法在无数场景中取得了巨大的成功,但它们的令人满意的性能并非没有先前的锚链接信息和/或节点属性,这可能并不总是可用。在本文中,我们提出了一种使用节点属性增强的新型NA方法的Grad-Align+,对于没有此类其他信息,它非常健壮。 Grad-Align+建立在最近的最新NA方法(所谓的Grad-Align)上,该方法逐渐发现了节点对的一部分,直到找到所有节点对。具体而言,grad Align+由以下关键组成组成:1)基于节点的中心度度量的增强节点属性,2)计算从图神经网络中提取的嵌入相似性矩阵,并在该图中提取了增强节点属性,并在其中进食增强的节点属性和3)通过计算相对于对齐的跨网络邻域对,逐渐发现节点对。实验结果表明,Grad-Align+具有(a)优于基准NA方法的优势,(b)我们理论发现的经验验证,以及(c)我们属性增强模块的有效性。
translated by 谷歌翻译
包含多种类型的节点和边缘的异质图在各种领域都普遍存在,包括书目网络,社交媒体和知识图。作为分析异质图的基本任务,相关度量旨在计算不同类型的两个对象之间的相关性,这些对象已在许多应用程序中使用,例如Web搜索,建议和社区检测。大多数现有的相关性措施都集中在对象具有相同类型的均质网络上,并为异质图制定了一些措施,但它们通常需要预定义的元路径。定义有意义的元路径需要大量的领域知识,这在很大程度上限制了其应用,尤其是在诸如知识图之类的图形富含模式的异质图上。最近,图形神经网络(GNN)已被广泛应用于许多图挖掘任务,但尚未用于测量相关性。为了解决上述问题,我们提出了一种基于GNN的新型相关性措施,即GSIM。具体而言,我们首先是理论上分析的,并表明GNN有效地测量图中节点的相关性。然后,我们建议基于上下文路径的图形神经网络(CP-GNN)自动利用异质图中的语义。此外,我们利用CP-GNN来支持任何类型的两个对象之间的相关性度量。广泛的实验表明,GSIM优于现有措施。
translated by 谷歌翻译
序列表示学习的主要挑战是捕获远程时间依赖性。监督序列表示学习的典型方法是基于复发性神经网络构建的,以捕获时间依赖性。这些方法的一个潜在局限性是,它们仅在序列中明确对相邻时间步长的一阶信息相互作用进行建模,因此,未完全利用了非相应时间步长之间的高阶相互作用。它极大地限制了建模远程时间依赖性的能力,因为由于时间信息稀释和梯度消失,无法长期保持一阶相互作用所学的时间特征。为了应对这一限制,我们提出了用于监督序列表示学习的非本地复发性神经记忆(NRNM),该学习执行非本地操作\ Mr {通过自我关注机制}以在滑动时间内学习全阶相互作用内存块和模拟内存块之间的全局相互作用以封闭式的复发方式。因此,我们的模型能够捕获远程依赖性。此外,我们的模型可以蒸馏出高阶相互作用中包含的潜在高级特征。我们验证了NRNM在不同模态的三种序列应用上的有效性和概括,包括序列分类,逐步的顺序预测和序列相似性学习。我们的模型与针对这些序列应用中的每个序列应用专门设计的其他最新方法进行了比较。
translated by 谷歌翻译
基于草图的3D形状检索(SBSR)是一项重要但艰巨的任务,近年来引起了越来越多的关注。现有方法在限制设置中解决了该问题,而无需适当模拟真实的应用程序方案。为了模仿现实的设置,在此曲目中,我们采用了不同级别的绘图技能的业余爱好者以及各种3D形状的大规模草图,不仅包括CAD型号,而且还可以从真实对象扫描的模型。我们定义了两个SBSR任务,并构建了两个基准,包括46,000多个CAD型号,1,700个现实型号和145,000个草图。四个团队参加了这一轨道,并为这两个任务提交了15次跑步,由7个常用指标评估。我们希望,基准,比较结果和开源评估法会在3D对象检索社区中促进未来的研究。
translated by 谷歌翻译
最近已经提出了一种新的基于梯度的优化方法,该方法最近提出了学习率,这称为二进制前进探索(BFE)。此后还讨论了BFE的自适应版本。在本文中,将研究基于它们的改进算法,以优化新方法的效率和鲁棒性。这种改进的方法为安排学习率的更新提供了一种新的观点,并将与具有动量或Nesterov动量的随机梯度下降(SGD)算法以及最成功的适应性学习率算法进行比较。亚当。该方法的目标不是旨在击败他人,而是提供不同的观点来优化梯度下降过程。这种方法结合了速度和效率方面的一阶和二阶优化的优势。
translated by 谷歌翻译
在本文中,提出了一种新的基于梯度的优化方法,可以自动调整学习率。这种方法可以应用于设计非自适应学习率和自适应学习率。首先,我将介绍非自适应学习率优化方法:二进制前进探索(BFE),然后可以开发相应的自适应人参数学习率方法:自适应BFE(ADABFE)。这种方法可能是基于当前非自适应学习率方法(例如SGD,动量,Nesterov和自适应学习率方法,例如Adagrad,Adadelta,Adam ...开发这种方法的目的不是击败其他方法的基准,而只是提供不同的观点来优化梯度下降方法,尽管将在以下方法中进行一些比较研究部分。预计这种方法将是启发式方法或激发研究人员改善基于梯度的优化以及以前的方法。
translated by 谷歌翻译